iT邦幫忙

2024 iThome 鐵人賽

DAY 6
0
AI/ ML & Data

Web仔從數學角度學習 AI/ ML & Data系列 第 6

Day 6 - Web仔從數學角度學習 初始裝備之統計學

  • 分享至 

  • xImage
  •  

註:本文同步更新在Notion!(數學公式會比較好閱讀)

描述性統計與推論性統計

  1. 描述性統計(Descriptive Statistics)

    描述性統計用於總結和描述數據的基本特徵。它不會進行推斷,而是關注數據的模式和趨勢,常見指標包括:

    • 均值(Mean):數據集的平均值。
      https://ithelp.ithome.com.tw/upload/images/20240918/20168898P1rJkv34Qa.png
    • 中位數(Median):排序後數據集中位的位置。
    • 標準差(Standard Deviation):數據點與均值之間的平均偏差。
      https://ithelp.ithome.com.tw/upload/images/20240918/20168898YmMq65BXEn.png
    • 變異數(Variance):標準差的平方,表示數據分佈的分散程度。
      https://ithelp.ithome.com.tw/upload/images/20240918/20168898FfKPXJtmzE.png
  2. 推論性統計(Inferential Statistics)

    推論性統計通過從樣本數據中得出的結論來推測母體特徵。這是機器學習的核心方法之一,因為我們常常從有限的數據中訓練模型,並希望它能對未來數據進行預測。

    • 假設檢驗(Hypothesis Testing)
    • 置信區間(Confidence Interval)
    • p 值(p-value):檢驗結果是否顯著的指標

概率論與隨機變量

機器學習中的許多算法都依賴於概率論。理解隨機事件和隨機變量是理解模型預測的重點。

隨機變量(Random Variables)

隨機變量是與隨機實驗結果相關聯的變量,表示了可能結果的數值。

  • 離散隨機變量:可能結果是離散的,比如擲骰子。
  • 連續隨機變量:可能結果是連續的,比如測量某人的身高。

概率分佈(Probability Distribution)

  • 離散分佈:如二項分佈、泊松分佈。
  • 連續分佈:如正態分佈、均勻分佈。

正態分佈(Normal Distribution)

許多自然現象的近似模型,其密度函數為:
https://ithelp.ithome.com.tw/upload/images/20240918/20168898e7x37LVLoy.png
其中 µ 是均值,σ 是標準差。


假設檢驗與置信區間

假設檢驗(Hypothesis Testing)

假設檢驗是統計學中的一個推斷工具,用來檢驗關於母體的假設是否成立。檢驗過程包括提出零假設 H_0(通常為無效果假設)和備擇假設 H_1,並根據數據決定是否拒絕 H_0。

  1. 零假設(Null Hypothesis):H_0 通常表示無差異或無效的狀況。
  2. 備擇假設(Alternative Hypothesis):H_1 表示我們期望檢驗的效果
  3. p 值(p-value):p 值是衡量觀察到的結果在零假設下出現的概率,當 p 值小於某個顯著性水平(如 0.05)時,我們拒絕零假設

置信區間(Confidence Interval)

置信區間用來估計一個參數的區間範圍。假設我們估計某個參數的均值µ,置信區間的表達式為:
https://ithelp.ithome.com.tw/upload/images/20240918/20168898JiwC6qYxsB.png


回歸分析與機器學習中的應用

在統計學中,回歸分析用於建模變量之間的關係。線性回歸是最常用的統計模型,通過找到數據點的最佳擬合直線來預測目標變量。

線性回歸(Linear Regression)

線性回歸的模型表達式為:
https://ithelp.ithome.com.tw/upload/images/20240918/201688984xG7iuCU1X.png

最小二乘法(Least Squares Method)

最小二乘法是一種求解回歸問題的常用方法,其目標是最小化觀察值與預測值之間的平方誤差和:
https://ithelp.ithome.com.tw/upload/images/20240918/20168898tK6qShlaP9.png


貝葉斯推理與機器學習中的應用

https://ithelp.ithome.com.tw/upload/images/20240918/20168898PXRShOKksB.png
貝葉斯推理是一種更新先驗知識的工具,根據新數據來調整我們對事物的理解。這在分類問題(如 Naive Bayes 分類器)中應用廣泛。


(´・ω・)つ

回歸分析是監督學習中的重要技術,假設檢驗則在模型評估中扮演著關鍵角色。統計學還有助於模型的泛化,避免過度擬合,並提供如置信區間、p 值等指標來評估模型的性能。


上一篇
Day 5 - Web仔從數學角度學習 初始裝備之最佳化理論
下一篇
Day 7 - Web仔從數學角度學習 前饋式神經網路 感知機
系列文
Web仔從數學角度學習 AI/ ML & Data30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言